如果說到「機器人」,你會想到什麼?
鋼彈?瓦力?R2-D2?
其實除了這些類似人形,主要出現在影視作品中的機器人
現實中很多機器人並沒有「人形」
例如生產線上轉螺絲、搬運零件的機械手臂
而除了這些有「實體」的機器人,還有很多以數位化形態存在的「機器人
例如……Web 爬蟲
Web 爬蟲是什麼?簡單來說,Web 爬蟲(Bot)是一種電腦程式,它們會定期自動瀏覽網際網路上的各種網站,並從中獲取有用資訊。因為這個過程就像是蜘蛛在蛛網上爬行獲取獵物,所以被人們形象化而稱為「爬蟲」。
根據 Akamai 2017年第四季度安全報告顯示,全網流量中,爬蟲產生的流量已經佔據了30%!
爬蟲在網路瀏覽中起到很多作用。幾乎所有搜尋引擎,都會利用爬蟲程式爬遍整個網際網路、瞭解每個網站有什麼內容,隨後編成索引為大眾提供搜尋服務。但也有些爬蟲,雖然對一些人有用,但是也會損害某些人的利益。例如「電商比價」網站,會用爬蟲檢索同一件商品在不同電商網站的價格,方便大家瞭解自己想買的東西在哪裡最便宜。購物狂自然歡迎這種做法,但商家就……還有些爬蟲,會利用「憑證濫用」的方式,從網上洩漏的使用者名稱和密碼嘗試登錄各種服務,一旦成功,後果請自行體會……
因此可以得出這樣的結論:爬蟲,需要根據實際情況加以區分。對於善意的爬蟲,當然是歡迎之至;但對於損人利己甚至全然惡意的爬蟲,必須採取措施加以遏制。
那麼問題就來了:
維護人員報告,公司網站流量突然激增,全公司上下先別急著歡欣鼓舞開香檳,這未必意味著使用者增加了,也有可能是因為爬蟲在「作祟」。
請先從下列五個方向檢查一下,看看新增的流量到底來自真實使用者,還是爬蟲。以及如果來自爬蟲,那麼,它們是善意的還是惡意的爬蟲。
◆ 監視登錄企圖:大部分情況下,攻擊者會利用爬蟲,以憑證濫用的方式,自動經過大量使用者名稱和密碼組合在多個網站上嘗試登錄。如果登錄成功,攻擊者就會利用這樣的帳號發起惡意活動進行獲利。因此請密切監視大規模登錄企圖的成功和失敗率,無論技術多麽先進,憑證濫用一定會導致登錄失敗率激增。
◆ 檢查伺服器日誌:如果有任何懷疑,請首先檢查伺服器日誌。大部分爬蟲會頻繁瀏覽同一個網站,甚至每天瀏覽多次,如果在日誌中持續看到某些相同 IP 位址,那麼這可能就是爬蟲。
◆ 檢查「已發送」電子郵件:如果你的郵箱「已發送」資料夾中包含並非由你自己撰寫的草稿、已發送信件或退信,這可能表示爬蟲已經入侵了你的帳號,並試圖偽裝成你的身份執行惡意行為,如向你的連絡人發送惡意郵件或釣魚郵件。
◆ 觀察網站速度是否變慢或當機:爬蟲通常會在短時間內在網站中密集的進行大量操作,這會導致伺服器每秒鐘接到大量請求,可能導致系統超載甚至載入速度變慢。這不僅會導致網站營運成本增高,還會影響實際使用者的使用體驗。
◆ 檢查網站內容是否被其他網站使用:對於內容剽竊類爬蟲,可以經過一些專門進行這種線上服務的平台來檢查你的網站內容是否被大量複製到其他網站。如果確認自己網站遭遇內容剽竊,那麼接下來就需要酌情採取應對措施了。
經由上述檢查,相信你已經有了初步的結論。那麼接下來的問題就變成:
隨著技術的發展和演進,爬蟲技術也在不斷進化,但萬變不離其宗,我們只需做好以下三件事:
❶ 按照角色區別對待:對網站存取速度加以控制就能遏制爬蟲的影響。而我們可以根據不同類型的瀏覽來源進行這樣地限制,例如對於「良性」爬蟲,可以照常提供服務不用太過在意;而對於惡意爬蟲,可以限制其存取速度,不僅可以降低它對網站性能的影響,同時可以降低盜取資訊的速度。
❷ 分攤負載:如果是合法使用者,可以設定由高性能伺服器來提供服務,並根據業務需求或爬蟲檢測技術的檢測結果,讓單獨的伺服器去應對惡意爬蟲。此外還可以使用內容快取來進一步降低原始伺服器負擔。
❸ 預警並採取措施:有些使用者可能更希望在遇到大量爬蟲流量時被自動通知,然後在原始位置進行應變措施來處理。此時就能借助爬蟲管理解決方案,在爬蟲生成的請求中加上特殊的標識資訊,進而分別應對。
Akamai Bot Manager 提供了一個靈活的框架,可改善使用者管理各類線上與實體的互動,並根據業務和 IT 影響,對不同類型的爬蟲程式進行識別、分類並採取應對措施。
使用 Akamai Bot Manager,使用者可經由持續更新的知名爬蟲程式目錄及聲譽管理機制、使用者行為分析、瀏覽器指紋識別、HTTP 異常檢測、高請求率和工作流驗證等技術,全面檢測並分析爬蟲流量,提供完善的分析和報告,並針對不同類型的爬蟲程式採取應對措施,幫助使用者保障瀏覽體驗的同時,也緩解資訊抓取、內容整合、憑證濫用等行為對正常業務產生的影響。
2018年4月9日,Akamai Bot Manager Standard 和 Akamai Bot Manager Premier 以完善的功能和全面的管理能力,雙雙榮獲 Frost&Sullivan 頒發的2018年全球市場領導獎!